“我們可能真的會進入一個B2B SaaS的黃金時代!”“接近100%的程式碼最初都是由AI生成的。”“我們活在‘矽谷泡泡’裡。”春節前夕,OpenAI API和開發者平台工程負責人Sherwin Wu與知名播客主持人Lenny進行了一期播客錄製。API作為OpenAI的第一個產品,也是幾乎所有AI創業公司都在整合的產品,可以說給了Sherwin一個極其獨特且宏觀的視角。整個行業正在發生什麼,它又將走向何方?Sherwin提到一個被市場嚴重低估的現象——“一人獨角獸”,Sam最早提出的概念。當AI把個人生產力放大十倍、百倍,理論上,一個人真的可以建構一家十億美元公司。也許會有一個十億美元公司,但可能會有上百個一億美元公司,成千上萬個一千萬美元公司。對個人來說,一家一千萬美元的公司已經足夠實現財務自由。更為重要的是接下來的二階和三階市場變化。這也是很少人會公開提及的部分。Sherwin認為,未來業界會進入B2B SaaS和軟體創業的黃金時代。圍繞這些“一人公司”,可能會出現上百家小公司建構高度定製的軟體,以專門專門服務這些高槓桿個體。“隨著軟體開發和營運公司的成本不斷下降,你會看到越來越多公司出現。”即:AI並不是消滅軟體,而是把軟體需求打碎成無數更細、更垂直的場景。過去,一個中型企業可能只買幾套通用SaaS;未來,一個高槓桿個體,可能會購買十幾種高度定製的AI工作流工具。那麼三階效應會怎樣呢?Sherwin給出了一個非常有意思的假設:如果世界變成大量微型公司為一兩個人服務的形態,創業生態和VC生態都會改變。也許只剩下少數大型平台型公司支撐這些微型企業。而那種能帶來100倍、1000倍回報的風險投資項目可能反而減少,因為更多公司會停留在1000萬到5000萬美元規模。此外,Sherwin還給出了一個捅破泡沫的言論:大多數AI部署都是負回報的!世界上大多數人,包括美國大多數人其實並不懂得如何真正部署和“壓榨”AI的價值。“矽谷是泡泡,X是泡泡,軟體工程也是泡泡。他們本身不是軟體工程師,也不密切關注每一次模型發佈。他們對如何使用這項技術並不熟悉。”那麼在OpenAI內部是如何運用AI的呢?他透露到,OpenAI內部有一個團隊正在做實驗,嘗試維護一個100%由Codex編寫的程式碼庫。不同之處在於,當Agent運行不順時,維護團隊並不會“擼起袖子自己敲程式碼”,而是始終讓AI自己編寫。而最重要的一個發現就是:當Agent沒有按你期望工作,通常是“上下文問題”。要麼你描述不夠充分,要麼它缺乏必要資訊。解決方法往往不是自己重寫,而是補充文件、加入程式碼註釋、改進程式碼結構,或者在倉庫中增加MD檔案等資源,把你腦海裡的“部落知識”顯式化,讓模型能讀到。Sherwin另一個有意思的判斷是:模型會把“腳手架”、“Agent框架”當早餐吃掉。“這個領域和模型本身變化太快了,它們往往會自我顛覆,模型會把你搭的腳手架當早餐吃掉。但隨著模型變強,更好的方法反而是去掉大量邏輯,直接信任模型,只給它搜尋工具——甚至只是普通檔案系統。“向量資料庫仍然有價值,但圍繞它建構的整個生態和複雜腳手架,重要性已經下降。隨著模型進步,你可能需要重構抽象層和工具框架。”總之,AI這個領域既令人興奮,也令人抓狂——因為目標是移動的。所以,Sherwin給出的建議是:一定不要過度聽取客戶意見,而是要面向未來1~2年的模型趨勢而建構。對於未來18個月,他還給出了兩個方向:長時程Agent和原生音訊模型。此外,播客中還有不少趣料,比如他認為軟體工程會朝著“外科醫生”發展,再比如業務流程自動化被矽谷低估了,等等。這裡不再一一贅述。以下是小編為大家梳理的精彩觀點。小編給大佬們拜年啦!95%工程師都在用Codex,幾乎100%程式碼最初都是AI生成主持人: Sherwin,非常感謝你來到節目。Sherwin Wu: 謝謝邀請。主持人: 我想從一個可以視為AI進展“晴雨表”的問題開始,尤其是在工程領域。現在你——如果你還寫程式碼的話——以及你團隊的程式碼,有多少比例是由AI編寫的?Sherwin Wu: 我現在偶爾還寫程式碼。對像我這樣的管理者來說,使用這些AI工具其實比手寫程式碼容易得多。我和OpenAI的幾位工程經理,目前所有程式碼基本都由Codex編寫。更廣泛來看,內部有一種明顯的能量場,大家都能感受到這些工具進步有多大,Codex對我們來說已經變得多麼好用。很難精確衡量程式碼比例,因為幾乎可以說接近100%的程式碼最初都是由AI生成的。我們真正追蹤的是使用情況:目前絕大多數工程師每天都在用Codex——95%的工程師在用;100%的PR每天都由Codex稽核。也就是說,任何進入生產環境的程式碼都會經過Codex“過目”,它會提出改進建議。對我們來說最令人興奮的,其實是這種能量感。另一個觀察是:用Codex更多的工程師,提交的PR數量高出70%,而且這個差距還在擴大。他們越來越熟練,效率越來越高。主持人: 所以確認一下,你是說那95%的工程師,他們的程式碼都是AI寫的,然後由他們稽核?Sherwin Wu: 是的。主持人: 這聽起來已經幾乎不再“瘋狂”了,我們都開始習慣。Sherwin Wu: 還是需要適應的。也有工程師對Codex的信任度稍低。但我幾乎每天都會聽到有人驚嘆它能完成什麼,他們對模型自主能力的信任在不斷提高。Kevin Whale(小編註:OpenAI首席產品官)常說:“這是模型此生最差的時刻。”這同樣適用於軟體工程。模型只會越來越好,人們的信任也會不斷增強。主持人: Kevin也在節目裡說過這句話。還有Peter——OpenClaw的開發者——他說自己用Codex時,幾乎相信它可以直接提交到主分支。Sherwin Wu:他是個很好的使用者,也給我們很多反饋。OpenClaw確實是個很棒的產品。今天早上我還看到Moltbook的分享,看到AI Agent彼此對話,感覺非常超現實,就像電影《Her》在現實中發生。工程師變成了管理者,同時管理20個Agent線程主持人: 回到這個對工程師而言瘋狂的時代。我們從“自己寫每一行程式碼”變成“AI寫所有程式碼”。我不知道還有那個職業變化這麼劇烈。工程師的角色在未來幾年會變成什麼樣?Sherwin Wu: 看到這一切真的很酷,也正是這種變化帶來了興奮。未來一到兩年,工程師的工作會發生重大改變。現在大家還在摸索階段,這是一段罕見的窗口期,也許在未來12到24個月,我們可以自己定義新的標準。有一個常見說法是:個人貢獻型工程師正在變成技術負責人,幾乎像管理者一樣。他們在管理成群的Agent。我團隊裡的工程師經常同時拉著10到20個線程平行推進——當然不是同時跑任務,而是在不斷檢查、引導、給Codex反饋。他們的工作已經從“寫程式碼”轉變為“管理程式碼生成過程”。軟體工程師就像“巫師”,用AI就像施咒語Sherwin Wu:至於未來走向,我常想到大學時讀的一本程式設計教材——《Structure and Interpretation of Computer Programs》。《SICP》在麻省理工學院(MIT)當年非常流行,它曾長期作為入門程式設計課的教材,也因此擁有一種“宗教式”的追隨者文化。它用的是一種名為Scheme的Lisp方言來教學,會把你帶入函數式程式設計的世界,非常開腦洞。但對我來說,這本書最難忘的是它在開篇對“程式設計”這門學科的定義——它把程式設計類比為“巫術”。書裡說,軟體工程師就像巫師,程式語言就像咒語,你念出這些咒語,它們就會替你完成事情。挑戰在於:你要念出什麼樣的咒語,程序才會按你的意願運行。這本書寫於1980年,但這個隱喻居然一路延續至今。我覺得它正在真實發生在我們進入“vibe coding”新時代的過程中。程式語言一直都是某種“咒語”,只是隨著時間推移,表達方式越來越高級,讓電腦按你的意圖行動變得越來越容易。而這一波AI,可能就是這條演進路徑的下一階段。現在它真的成了“咒語”——你可以直接告訴Codex、Cursor你想要什麼,然後它們去幫你完成。我特別喜歡“巫師”這個比喻,因為我們現在的狀態其實越來越像《幻想曲》裡的“魔法師學徒”。米老鼠戴上魔法帽,試圖施法,結果失控——掃帚開始瘋狂打水,房間被淹。他給掃帚下達任務後自己睡著了,事情就失控了。我覺得這比喻非常貼切。一方面,這些“咒語”威力巨大,槓桿極高;但另一方面,你必須知道自己在做什麼。不能完全放手不管,否則模型就可能“跑偏”。當我看到工程師同時管理20個Codex線程時,那確實需要技巧、資歷和深思熟慮。你不能徹底離開,也不能完全忽視。但一位真正熟練的高級工程師,現在可以通過這些工具完成遠超以往的事情。這也正是樂趣所在——真的感覺自己成了巫師,施展魔法,讓軟體為你完成各種任務。主持人: 我剛才聽你講的時候腦子裡就是“魔法師學徒”的畫面。之前也有嘉賓說過,現在像是擁有一個可以許願的精靈,但你必須非常精確地表達願望,否則後果難料——甚至像“猴爪”故事那樣,願望實現了,卻伴隨副作用。Sherwin Wu: 對,這個比喻很好。SICP也被稱為“巫師之書”,因為這個隱喻貫穿全書。我們現在真的走到了那個階段,這本身就很酷。OpenAI內部實驗:100%由Codex編寫程式碼的團隊,維護基本就是補充上下文主持人: 有兩個方向我想繼續追問。一個是,我越來越多地聽到人們提到,當Agent不按預期工作時,會產生一種壓力。你同時啟動一堆Codex Agent,還得盯著它們——這個不工作了,那個浪費時間了。你在團隊裡也感受到這種壓力嗎?Sherwin Wu: 有,而且經常發生。我認為這裡正是目前最有意思的部分。模型和工具都還不完美,我們仍在摸索如何與它們最佳協作。內部有一個特別有意思的團隊正在做實驗:他們維護一個100%由Codex編寫的程式碼庫。通常你會讓AI寫程式碼,但最終會自己重寫很多部分、做檢查修改。但這個團隊是“徹底Codex化”,完全不留退路。他們遇到的正是你說的問題:想實現某個功能,但Agent始終做不到。通常這時你會“擼起袖子”自己寫程式碼,或用Tab補全、Cursor等工具。但這個團隊沒有這個逃生艙口。於是問題變成:如何讓Agent真正完成任務?我們可能會發佈一篇部落格總結經驗。一個重要發現是:當Agent沒有按你期望工作,通常是“上下文問題”。要麼你描述不夠充分,要麼它缺乏必要資訊。解決方法往往不是自己重寫,而是補充文件、加入程式碼註釋、改進程式碼結構,或者在倉庫中增加MD檔案等資源,把你腦海裡的“部落知識”顯式化,讓模型能讀到。取消“人工逃生通道”之後,他們開始真正理解,如果要全面擁抱Agent,我們需要解決那些結構性問題。15分鐘的審查任務縮短到2~3分鐘主持人: 你提到,使用AI的工程師提交PR的數量大幅增加。這意味著程式碼審查會成為瓶頸。你們有什麼辦法避免工程師整天只是在Review PR嗎?Sherwin Wu: 首先,Codex現在稽核我們100%的PR。一個有趣現像是:我們最早交給模型的,往往是我們最討厭、最枯燥的工作。程式碼審查就是其中之一。對我來說,程式碼審查曾經是最痛苦的工作之一。我畢業後的第一份工作在Quora,負責Newsfeed程式碼。因為那是核心模組,所有人都會改動。每天早上打開電腦,看到20到30個待審PR,拖著拖著就變成50個。那種感覺非常糟糕。Codex在程式碼審查方面非常強。尤其是GPT-4.5在這方面已經非常擅長,只要你給它合適的引導方向。它可以快速指出潛在問題、改進建議,甚至提前識別破壞性變更。所以,至少在程式碼審查這個維度,AI確實正在顯著緩解規模化帶來的壓力。Sherwin Wu: 所以在程式碼審查方面,是的,我們確實建立了大量PR,但Codex會稽核全部PR。這讓程式碼審查從原本10到15分鐘的任務,有時縮短到兩三分鐘,因為很多修改建議已經提前生成好了。很多情況下,尤其是小型PR,甚至不再需要人工稽核——我們在這方面已經相當信任Codex。程式碼審查的本質是“第二雙眼睛”,確保你沒犯低級錯誤。現在,Codex已經是一雙非常聰明的“第二雙眼睛”,所以我們在這方面投入得很深。此外,CI流程以及程式碼提交後的部署流程,也已經大量通過Codex實現自動化。很多工程師最煩的事情是:寫完漂亮的程式碼之後,怎麼把它部署上線?要跑測試、修lint錯誤、做程式碼審查……這一整套流程。很多環節都可以通過Codex自動化處理。我們內部已經建構了一些工具來自動修復lint錯誤——如果出現lint問題,Codex可以直接生成補丁,然後重新觸發CI流程。我們的目標是把工程師在這些環節的工作量壓縮到最低。結果就是,他們現在可以合併和發佈更多PR。吃自己的狗糧,用不同模型版本切換主持人: Codex寫程式碼,又用Codex稽核程式碼。我很好奇,你們是否考慮用其他模型來稽核自己模型的工作?還是說現在已經足夠好了?Sherwin Wu: 確實存在某種“循環”的問題——回到“魔法師學徒”的比喻,你不希望掃帚失控。所以我們在選擇那些PR可以完全交由Codex稽核時是非常謹慎的。大多數人仍然會查看自己的PR,並不是完全放手,而是從“100%注意力”降低到大概“30%注意力”,這已經足夠提高效率。至於多模型策略,我們內部測試很多模型,也有不少模型變體可供選擇。外部模型用得較少,我們認為“吃自己的狗糧”很重要,通過使用自家模型來獲得反饋。當然,在內部不同模型版本之間切換,獲得不同視角,是常見做法,而且效果不錯。主持人: 為了給大家一個清晰的現狀刻度:可以說OpenAI現在生產環境中的程式碼100%由Codex編寫嗎?Sherwin Wu: 我不會說今天線上運行的程式碼100%由AI寫成,因為歸因很難精確。但幾乎所有工程師現在都高度依賴Codex。如果要粗略估計,我會說現在絕大多數程式碼很可能最初是由AI生成的。頂級績效者會越來越強管理者本身頁變得更高桿槓主持人: 我們談了很多IC工程師的變化,但關於工程經理的討論較少。AI興起之後,你作為經理的生活發生了什麼變化?未來經理的角色會是什麼?Sherwin Wu: 相比工程師,經理的變化沒那麼劇烈。還沒有專門的“經理版Codex”。不過,我確實用Codex來輔助一些管理相關的工作。目前變化還不算巨大,但趨勢已經出現。如果把趨勢推演下去,就能看到方向。一個越來越明顯的現像是:Codex極大放大了頂尖績效者的生產力。我覺得這可能是AI在整個社會層面的共性——那些真正“傾身投入”、有主動性、願意掌握工具的人,會大幅自我增強。我已經看到這種分化:頂尖績效者的產出明顯拉開差距。因此,團隊內部的生產力分佈變得更寬。我的管理哲學一直是,把大部分時間花在頂尖績效者身上——確保他們沒有阻礙、保持開心、感覺被支援、被傾聽。在AI時代,這一點更重要,因為頂尖人才會用這些工具“飛起來”。比如那個維護100% Codex程式碼庫的團隊,讓他們自由探索、深挖最佳實踐,已經帶來很大回報。我認為未來經理會花更多時間在這類高槓桿群體上。另一個趨勢是:AI工具讓經理本身也變得更高槓桿。比如把ChatGPT接入組織知識庫,連接GitHub、Notion、Google Docs,在做績效評估時,可以快速生成一份過去12個月工作成果的深度報告。我推測,未來經理可以管理更大的團隊。就像工程師管理20到30個Codex線程一樣,管理者也會因為工具的加持而變得更高槓桿。當前軟體工程的最佳管理跨度大概是6到8人,但未來可能會遠遠超過這個數字。這種趨勢已經在支援、營運等非工程領域出現:隨著更多事務交給Agent,人可以處理更多事務,也能管理更多人。我認為在人力管理領域也會發生類似變化。我們已經看到一些工程經理管理人數顯著增加,而且做得相當不錯,因為他們能更高效地獲取團隊資訊、理解組織背景。主持人: 你提到一直把時間投入在頂尖績效者身上。Mark Andreessen之前在節目裡說過,AI讓好的人更好,讓偉大的人變得卓越。Sherwin Wu: 對。一個很好的例子是,內部有一群工程師非常沉浸在Codex實踐中,研究如何與模型最佳互動。這是極高槓桿的事情。作為經理,我會鼓勵他們繼續探索,並把最佳實踐在組織內傳播——通過知識分享會議、文件沉澱等方式。這會抬高整個組織的水平。我認為這正是“頂尖績效者變得卓越”的體現。一人獨角獸:更多公司會停留在5000萬美元的規模與未來二階、三階變化主持人: 很多人都有一種直覺:AI很大,它正在改變世界。但你覺得有那些變化是大家還沒有真正“定價進去”的?有那些潛在影響是我們還沒有意識到的?Sherwin Wu: 我最喜歡的一個說法,是這波AI浪潮中誕生的“一個人打造十億美元公司”的概念。我記得可能是Sam最早提出來的。這個想法很迷人——當個人槓桿被極度放大,理論上確實可能出現一家“一個人、十億美元”的公司。但我覺得大家還沒有真正把它的二階、三階效應算進去。“一個人十億美元公司”意味著,一個人的主動性和槓桿被工具放大到極致,他可以極其高效地完成公司所需的一切,從而打造出價值十億美元的業務。但它還有其他含義。第一,如果一個人能做到這一點,那說明創業本身會變得更容易。我認為這會帶來一次巨大的創業潮,尤其是中小企業(SMB)式的爆發——任何人都能為任何細分場景建構軟體。我們已經在AI創業領域看到垂直化趨勢:為特定行業打造AI工具往往效果很好,因為你能深度理解那個場景。如果把這個趨勢推演下去,完全可能出現100倍數量的垂直創業公司。我甚至覺得,為了支撐一個“一個人十億美元公司”,可能會有上百家小公司建構高度定製的軟體,專門服務這些高槓桿個體。因此,我們或許會進入B2B SaaS和軟體創業的黃金時代。隨著軟體開發和營運公司的成本不斷下降,你會看到越來越多公司出現。我的想法是:也許會有一個十億美元公司,但可能會有上百個一億美元公司,成千上萬個一千萬美元公司。對個人來說,一家一千萬美元的公司已經足夠實現財務自由。這種爆發式增長,我覺得大家還沒有真正“定價”。再往三階效應看——當然越往遠推不確定性越高——如果世界變成大量微型公司為一兩個人服務的形態,創業生態和VC生態都會改變。也許只剩下少數大型平台型公司支撐這些微型企業。而那種能帶來100倍、1000倍回報的風險投資項目可能反而減少,因為更多公司會停留在1000萬到5000萬美元規模。這對VC來說未必理想,但對高主動性的個人來說非常好,他們可以借助AI為自己打造業務。主持人: 我們已經講到三階效應了,我想聽四階效應了。Sherwin Wu: 四階效應太“超腦”了,我還沒法推那麼遠(笑)。主持人: 關於“十億美元公司”,我其實有點悲觀。光是支援成本就很難規模化。即便有AI幫忙,除非你客戶很少且客單價極高,否則支援問題本身就難以靠一個人處理。Sherwin Wu: 我同意這一點,但我的看法略有不同。也許你自己的播客就可能成為十億美元公司。關鍵在於,你不必親自派AI去處理所有支援工單。可能會出現十幾家專門為播客和Newsletter建構支援軟體的小公司——它們本身就是“一個人公司”。它們能非常輕鬆地建構出高度定製的產品,而你作為“一個人公司”去購買這些服務。隨著軟體建構成本急劇下降,你可能會外包越來越多事務,從而縮小自己公司的規模。最終,仍然可能是一個人驅動一個高槓桿的公司,達到十億美元規模。當然,不確定性仍然存在。主持人: 我也在想,像Peter(OpenClaw創始人)現在被各種需求、郵件、PR淹沒——而他甚至還沒變現。Sherwin Wu: 這可能就像我們剛發佈ChatGPT那幾個月的瘋狂狀態。他一個人承受這種規模,一定非常瘋狂。主持人: 也許四階效應是:分發變得更重要,因為太多東西在爭奪注意力。有受眾、有平台的人價值更高。軟體工程會朝“外科醫生”發展主持人: 回到管理話題。除了多花時間在頂尖績效者身上,你還有那些核心管理心得?Sherwin Wu: 很多經驗未必特定於OpenAI API業務。我自己的管理理念這些年有所演進,但總體變化不算太大。其中一個核心原則就是剛才提到的:把大量時間投入在頂尖績效者身上。具體來說,可能超過50%的時間花在前10%的績效者身上,真正賦能他們。我常用一個比喻——來自《The Mythical Man-Month》——把軟體工程師比作外科醫生。這個比喻對我的管理理念影響很大。其實挺有意思的。我是從那本《The Mythical Man-Month》裡看到這個比喻的。那本書寫於上世紀70年代,當時他們其實像是在預測未來。他們說,軟體工程可能會演變成一種類似“外科手術室”的模式——工程師就像外科醫生。手術室裡真正“動刀”的只有一個人,其他人——護士、住院醫師、研究員——都在為他提供支援。外科醫生說“給我手術刀”,就有人遞上;說“需要某個裝置”,馬上就到位。所有人圍繞一個核心執行者展開支援。那本書當年就預言,軟體工程可能會朝這個方向發展。當然,現實並沒有完全變成那樣——軟體開發仍然是高度協作的,不是一個人完成所有工作。但我一直很喜歡這個類比,也在自己的管理理念中努力去“模擬”這種模式。軟體工程不是手術,但我希望團隊成員能有“外科醫生”的感覺:他們是核心執行者,而我作為管理者,要確保他們擁有一切所需資源,感覺背後有一支軍隊在支援他們——那怕實際上只有我一個人在做這些支援工作。 舉個例子,“提前看到轉角”並為團隊掃清障礙,在組織層面上極其重要。尤其在今天的AI時代更是如此。如果大家只是不斷提交PR,真正卡住進度的往往不是技術,而是組織流程和協作問題。作為管理者,如果能提前預判阻塞點,在“醫生”開口之前就準備好“手術刀”,那就是最佳狀態。這是我理解的工程管理方式。這個類比雖然不完全貼切,但一直伴隨我整個職業生涯。主持人: 我很喜歡這個說法。我在想,AI是不是也能幫助管理者“提前看到轉角”?比如預測某個工程師將會因為某個決策被卡住,我們是不是可以提前處理?Sherwin Wu: 這是個很好的問題。我還沒試過,但如果把ChatGPT接入公司知識庫,問它:“當前團隊的活躍阻塞點是什麼?掃一遍Notion文件、Slack消息,找出潛在卡點。”也許會很有意思。你剛剛給了我一個靈感。 更進一步,不只是識別當前阻塞點,而是預測未來幾個月某個工程師或團隊可能遇到什麼問題。讓AI去做二階、三階推演——提前預判下個月的“卡點”。這個思路很有潛力。我們活在泡泡裡:矽谷是泡泡,X也是泡泡,大多數人並不真正懂AI部署主持人: 我想把話題轉回你們的API和平台。你和很多公司合作,幫助他們部署AI。你提到很多公司在AI部署上其實是負ROI,這和外界的感受一致。到底出了什麼問題?Sherwin Wu: 先澄清一下,我沒有直接看到量化資料——這類ROI很難精確測算。但從觀察來看,我不會驚訝如果很多AI部署確實是負回報的。甚至在科技圈之外,很多人有一種情緒:AI是被“強行推到他們頭上”的。這種牴觸感,本身可能就和負ROI有關。我看到幾個現象。第一,我們所在的矽谷,其實活在一個泡泡裡。X是泡泡,矽谷是泡泡,軟體工程是泡泡。世界上大多數人——包括美國的大多數人——都不是軟體工程師,也不密切關注每一次模型發佈。他們對如何使用這項技術並不熟悉。 在我們這裡,大家討論的是最佳實踐、codecs、agents、MCPs等高級用法;X上那些發帖的人幾乎都是重度AI使用者。但當我和一些公司一線員工交流時,他們只是用AI做非常基礎的事情,對技術原理幾乎沒有理解,也沒有真正“壓榨”它的能力。這就引出一個問題:理想的AI部署模式是什麼?在我看來,成功案例往往具備兩個條件——自上而下的支援,以及自下而上的採用。 高層要明確戰略,比如“我們要成為AI-first公司”,願意投入資源和預算;但更關鍵的是基層員工真正願意學習、嘗試、分享最佳實踐。只有當一線員工主動擁抱技術,並在具體工作場景中摸索“最後一公里”的應用細節,AI才真正開始創造價值。在OpenAI內部也是如此。我們一直想成為AI驅動的公司,但真正加速發生,是當員工開始把這些工具直接應用到日常工作中。因為每個崗位——工程、財務、營運、銷售——都有獨特的工作細節,這些都需要自下而上地打磨。 我的感覺是,很多公司缺少這種自下而上的採用和熱情,因此AI部署很難真正產生正向ROI。有些公司就是非常明確地下達命令,自上而下推進,而且完全脫離一線實際工作的樣子。結果就是,你會得到一支龐大的員工隊伍,他們其實並不理解這項技術,只是知道“我應該用這個”,甚至績效考核裡也寫著要用,但不知道該怎麼用。看看周圍,也沒人真正用起來,沒有榜樣可以學習。突擊隊的構成:技術鄰近型人才,不是工程師Sherwin Wu:我的建議是,公司如果真的想推動AI,不如在內部設立一個全職“突擊隊”——一個AI tiger team,專門探索技術的能力邊界,把它落地到具體工作流,做知識分享,製造興奮感。如果沒有這樣的團隊,其實非常難真正用起來。主持人: 這個tiger team應該是什麼構成?工程師主導?還是跨職能?Sherwin Wu: 很有意思的是,很多公司其實根本沒有軟體工程師。我看到的模式往往是“技術鄰近型人才”——不是工程師,但很技術。比如客服團隊負責人、營運負責人,不會寫程式碼,但特別喜歡用這些工具,可能還是Excel高手。這類“技術鄰近”“編碼鄰近”的人往往最興奮,也最願意鑽研。通常可以圍繞他們組建團隊。反而很多時候不是工程師在主導。工程師當然理解技術,但不是每家公司都有工程師——他們稀缺、昂貴,也不好招。主持人: 所以反模式就是:CEO和高管宣佈“我們要AI-first”,每個人的績效都要和AI使用掛鉤,但沒有自下而上的傳播者,最後效果不好?Sherwin Wu: 對,完全正確。更好的做法是找到那些最興奮、最主動的人,與其讓他們分散在組織裡,不如把他們聚在一起,形成一個AI evangelist團隊,去探索用法,再向全公司擴散。換個角度說,這也和我的管理理念一致——找到AI採用上的“高績效者”,賦能他們。讓他們組織駭客松、做內部分享、傳播最佳實踐,在組織內部種下興奮的種子。目標是移動的:Agent框架、腳手架的作用在減弱今天流行的是Skills、上下文管理主持人: 有個你提到過的觀點挺有爭議:在AI領域,過度聽客戶意見可能會把你帶偏。Sherwin Wu: 我不覺得這有多“熱”。當然要和客戶溝通,這是有價值的。但問題在於,AI這個領域——尤其過去三年——變化太快了,模型本身不斷自我顛覆,尤其是在工具和“腳手架”(scaffolding)層面。我這周讀到一篇文章,是FinTool創始人Nicholas寫的,他總結自己在金融服務裡做AI agent的經驗。有一句話我特別喜歡:“模型會把你的腳手架當早餐吃掉。”回到2022年ChatGPT剛發佈的時候,模型還很“原始”,於是大家圍繞它建構了大量產品級腳手架,尤其在開發者生態裡,用各種框架、agent框架、向量資料庫、embedding系統去“引導”模型輸出想要的結果。 但隨著模型能力迅速提升,它們真的開始“吃掉”這些腳手架。今天流行的是skills檔案、基於檔案的上下文管理。但我也能想像一個未來,模型可以自己管理這些,不再需要這種檔案式結構。 你已經看到這種演化:agent框架的作用在減弱;2023年我們以為向量資料庫會成為組織上下文輸入的核心方式,需要把所有語料embedding,再精細最佳化向量搜尋。但隨著模型變強,更好的方法反而是去掉大量邏輯,直接信任模型,只給它搜尋工具——甚至只是普通檔案系統。向量資料庫仍然有價值,但圍繞它建構的整個生態和複雜腳手架,重要性已經下降。所以回到“要不要聽客戶”這個問題:如果你只聽客戶,他們可能會說“我要更好的向量資料庫”“我要更強的agent框架”。但那可能只是當前的局部最優。隨著模型進步,你可能需要重構抽象層和工具框架。 這個領域令人興奮,也令人抓狂——因為目標是移動的。今天的工具組合,未來很可能會大幅演化。與客戶溝通時,你必須平衡他們當前的需求和你對未來1-2年模型趨勢的判斷。主持人: 這讓我想到《苦澀教訓》(The Bitter Lesson)——在AI裡,越少人為複雜邏輯、越少手工規則,越能規模化,讓算力和模型自己解決問題。Sherwin Wu: 是的,幾乎可以說有一個“AI建構版的苦澀教訓”。我們曾經圍繞模型搭了很多架構,但模型進步後把它們都吞掉了。坦率講,我們OpenAI API團隊也走過一些彎路。但模型不斷進步,我們每天都在重新學習這條“苦澀教訓”。建構面向未來的AI產品主持人: 那對今天基於API或agent建構產品的人來說,最核心的建議是什麼?Sherwin Wu: 我的核心建議一直是:為模型將要去的方向建構,而不是為模型今天的狀態建構。Sherwin Wu: 這顯然是一個不斷移動的目標。我看到那些真正做得好的創業公司,往往是圍繞一種“理想能力”在做產品——這種能力今天可能只實現了80%。產品現在是“差一點點就到位”,但隨著模型變強,突然某一天就“啪”地一下完全跑通。也許最初在o3上還不行,但到了5.1、5.2版本就徹底解鎖。他們在設計產品時,是把模型能力持續提升這個趨勢考慮進去的。如果你默認模型是靜態的,你做出來的體驗一定不如這種“面向未來”的產品。是的,你可能需要稍微等一等,但模型進步太快了,通常也等不了太久。未來6-18個月模型會走向那裡?音訊被嚴重低估了主持人: 那未來6到12個月,API、平台和模型會走向那裡?Sherwin Wu: 最明顯的方向是——模型可以連貫執行多長時間的任務。現在有一個衡量軟體工程任務時長的基準測試,統計模型在50%、80%成功率下可以持續完成多長時間的任務。目前前沿模型在50%成功率下已經可以完成多小時的任務,在80%成功率下接近一小時。更震撼的是,你把歷代模型都畫在那張圖上,能清晰看到趨勢。 現在大多數產品還在圍繞“分鐘級任務”最佳化。那怕是像Code工具,更多也是互動式、10分鐘左右的工作流。確實有人把它推到多小時,但那是例外。按照趨勢推演,未來12到18個月,模型可能可以非常連貫地完成多小時任務,甚至一天6小時等級的任務——你把任務派發出去,它自己幹一陣子。 圍繞這種能力建構的產品會完全不同。你肯定要加入反饋機制,不會讓它完全失控地跑一整天,但可實現的任務空間會大幅擴展。另一個方向是多模態,尤其是音訊。模型現在的音訊能力已經不錯,但未來6到12個月會明顯提升,特別是原生語音到語音模型。在企業場景裡,音訊被嚴重低估。大家都在談程式碼、文字,但現實世界大量業務是通過“說話”完成的——客服、銷售、營運。未來12到18個月,這個領域會非常激動人心,會解鎖更多能力。主持人: 總結一下,就是Agent會運行更久、更穩定;音訊會變得更核心、更原生。Sherwin Wu: 是的,非常令人興奮。業務流程自動化的機會被矽谷低估了主持人: 你還有一個觀點:你非常看好AI在業務流程自動化上的機會。Sherwin Wu: 這又回到“我們活在矽谷泡泡裡”這個問題。我們習慣的軟體工程、產品管理,其實和支撐整個經濟運行的工作形態差異巨大。 如果你和一家非科技公司聊天,會發現大量工作都是“業務流程”。軟體工程是開放式知識工作,不可重複,你不會一遍遍做同一個功能。但大量現實世界工作是高度可重複的——有標準操作流程(SOP),有既定步驟,偏離反而不好。 比如你打客服電話,對方就在跑流程;打給水電公司,他們有明確能做和不能做的事情。我非常看好這一類——將AI真正嵌入企業資料和系統,自動化這些高確定性的、可重複的業務流程。這塊機會被低估,是因為它不在矽谷主流討論視野裡。主持人: 你的意思是,相比工程領域,AI在這些重複型崗位上的生產力影響可能更大?Sherwin Wu: 至少是同樣巨大,甚至在業務流程側的變化會更顯著。我常被問:20年後的公司會是什麼樣?軟體工程只是其中一部分,更大的變化可能發生在業務流程層面。這塊規模非常龐大,只是我們在X或Twitter上很少討論。創業者會不會被OpenAI碾壓?不用過度焦慮,做使用者真正熱愛的產品主持人: 換個話題。所有基於API創業的人都會問:如何避免被OpenAI自己下場做同樣的產品?Sherwin Wu: 我的一般回答是,這個市場真的太大了,大到創業公司其實不必過度糾結OpenAI或者其他大模型實驗室會往那裡走。我見過很多創業公司,有做得不成功的,也有做得非常好的。那些失敗的公司,從來不是因為OpenAI、某個大實驗室或者Google下場“碾壓”了他們,而是因為他們做的產品根本沒有真正打動客戶。反過來看那些起飛的公司——那怕是在極度競爭的領域,比如程式設計工具,像Cursor現在已經非常大了——原因只有一個:他們做了使用者真正熱愛的產品。所以我的建議是,不要過度焦慮。只要你做出真正有人喜歡的東西,你一定會在這個生態裡找到自己的空間。我真的無法誇張地形容現在機會有多大。用AI建構產品的機會窗口,是前所未有的。一個有趣的例子是:這個市場大到連VC的“可接受投資範圍”都被改寫了。風投現在會毫不猶豫投資彼此競爭的公司,因為機會空間實在太大了。從創業者角度看,這反而是最令人振奮的——那怕你只做出一個讓一部分人“非常非常喜歡”的產品,也可能成長為一家極其有價值的公司。所以不要過度思考OpenAI會不會做同樣的事。OpenAI的定位:生態平台型公司,不會把能力鎖在自己產品裡Sherwin Wu:另外,從OpenAI的角度,我們一直把自己視為一個“生態平台型公司”。API是我們的第一個產品。我們非常重視生態建設,也不希望去擠壓它。Sam和Greg從一開始就反覆強調這一點。如果你觀察我們的決策,會發現這一點貫穿始終。我們發佈的每一個模型,都會進入API。那怕是為Codex場景最佳化的模型,也最終會開放給API使用者。我們不會把能力“鎖在自己產品裡”。我們保持平台中立,不遮蔽競爭者,允許開發者訪問我們的模型。最近測試的“用ChatGPT登錄”等功能,本質上也是在強化生態。我們的思路是“水漲船高”。也許我們像一艘航母,但如果潮水上漲,所有船都會受益,我們自己也會受益。API的增長已經證明了這一點。所以,與其把OpenAI看成一個會把別人擠走的存在,不如專注於打造真正有價值的產品。我們會繼續致力於一個開放生態。主持人: 為什麼對OpenAI來說,“做平台”這麼重要?Sherwin Wu: 這其實寫在我們的使命裡。我們的使命有兩部分:第一,建構AGI;第二,讓AGI的收益惠及全人類。重點在“全人類”。我們很早就意識到,單靠一家公司不可能觸達世界每個角落。所以早在2020年我們就推出了API。我們需要一個平台,讓其他人去建構我們自己不可能覆蓋的應用——比如播客主和Newsletter作者的客服機器人。這正是API存在的意義。我們每天都在和客戶交流,也非常享受看到各種多樣化的應用誕生。這從第一天起就是使命的一部分。主持人: 還有你們的ChatGPT應用程式商店。Sherwin Wu: 那是ChatGPT團隊主導的,我們密切合作。他們開發了Apps SDK。這也是平台戰略的延伸。ChatGPT現在每周有大約8億活躍使用者——這是一個極其龐大的資產。與其獨佔這流量,不如讓其他公司也能圍繞這個使用者群體建構產品,最終這也會擴大整個生態規模。主持人: 每周8億使用者,這數字已經讓人麻木了。Sherwin Wu: 這大概相當於全球10%的人口,而且還在增長。規模確實令人震撼。主持人: 你們一直強調“讓AI惠及全人類”。比如免費版ChatGPT,任何人都可以使用,而且能力並不比最強模型差太遠。Sherwin Wu: 是的。免費模型這幾年進步非常大。2022年的免費模型和今天相比完全不是一個量級。今天免費使用者用到的是2GB 5等級的能力。我們一直在“抬高地板”,讓全球更多人受益。再換個角度說,你花20美元一個月,就能用到和億萬富翁幾乎相同的AI能力;花200美元,可以用Pro版本。某種程度上,這是前所未有的技術民主化。OpenAI API的分層結構:從API到“元層面”主持人: 最後一個問題。對於想基於API建構產品的人來說,你們的平台到底能做什麼?Sherwin Wu: 簡單來說,我們的API允許開發者建構智能體、多模態應用、語音應用,以及各種結合企業資料的AI系統。你可以呼叫最前沿的模型,接入工具、檔案系統、搜尋、函數呼叫等能力,建構可以自主執行任務的系統。你可以圍繞文字、程式碼、圖像、音訊建構應用,也可以把模型嵌入到自己的產品流程裡。我們的目標是提供儘可能通用、強大、可擴展的基礎能力,讓開發者在其之上創造屬於自己的產品和體驗。從根本上說,我們的 API 提供了一系列開發者端點,這些端點本質上讓你可以呼叫我們的模型進行採樣。目前最受歡迎的是 Responses API。它是一個為建構長時間運行的智能體而最佳化的介面,也就是那種可以持續工作一段時間的 agent。在一個非常底層的層面上,你基本上只是向模型輸入文字,模型會運行一段時間,你可以輪詢查看它在做什麼,最終在某個時刻獲得模型返回的結果。這是我們提供的最底層原語,實際上也是很多人最常用的方式。它非常“無預設立場”,幾乎不做限制,你基本可以隨心所欲建構任何東西,因為它足夠底層。在此之上,我們也開始建構越來越多的抽象層,幫助大家更容易搭建這些系統。再往上一層是 Agents SDK,它現在也變得極其流行。通過它,你可以基於 Responses API 或其他介面,建構更傳統意義上的“智能體”——比如一個在無限循環中運行的 AI,它可以把子任務委派給子 agent,建構出一整套框架和腳手架。未來會演變成什麼樣還不好說,但它確實讓建構這類系統變得更容易,比如加入護欄、把子任務分發給其他 agent,甚至編排一個“智能體群”。Agents SDK 就是為此設計的。再往上,我們還開始建構一些工具,幫助解決部署智能體的“元層面”問題。比如我們有一個叫 Agent Kit 的產品,還有 Widgets——本質上是一組 UI 元件,可以讓你非常輕鬆地在 API 或 Agents SDK 之上建構一個美觀的介面。因為從 UI 角度看,很多智能體的形態其實很相似。除此之外,我們還有一系列評測工具,比如 Eval API。如果你想測試模型、智能體或工作流是否正常運行,可以通過我們的評測產品進行量化驗證。所以在我看來,這是一個分層結構——不同層級都在幫助你基於我們的模型建構想要的東西,抽象程度逐級提升、預設也逐漸增強。你可以直接使用整套技術堆疊,很快搭建一個 agent;也可以一路往下,回到底層的 Responses API,自由建構任何你想要的系統,因為它足夠原始、足夠底層。接下來兩三年會持續讓人振奮Sherwin Wu:如果還有什麼想留給大家的話,我會說,未來兩到三年將會是科技行業和創業世界最有趣的時期之一,而且可能是很久以來最有趣的一段時間。我鼓勵大家不要把它當成理所當然。我是 2014 年進入職場的,最初幾年很棒,但後來有五六年科技行業並不算特別興奮。過去三年則是我職業生涯中最瘋狂、最令人振奮的階段,我認為接下來的兩三年還會延續這種勢頭。所以不要錯過。總有一天這波浪潮會趨於平緩,變得更加漸進式發展。但在此之前,我們將探索很多酷炫的東西,發明全新的事物,改變世界,也改變我們的工作方式。這是我最想說的。主持人:當你說“不要錯過”時,你會建議大家具體做什麼?Sherwin Wu:參與進來。正如你說的,主動投入。建構工具是其中一部分,但即便不是軟體工程師,也完全可以參與。很多工作都會因此改變。使用這些工具,理解它們的能力邊界——知道它們能做什麼、不能做什麼,然後觀察它們隨著模型進步能開始做到什麼。核心就是熟悉這項技術,而不是躺平讓它從你身邊溜走。主持人:但現在資訊爆炸,也會讓人焦慮。Sherwin Wu:坦白說,我自己可能是個反面例子,因為我長期泡在 X 和公司 Slack 上,資訊吸收量很大。但我觀察到的一點是:大量內容其實是噪音。你不需要 110% 地吸收所有動態。專注一兩個工具,從小處入手,已經遠遠足夠。行業節奏本來就快,再疊加社交平台,會形成一種讓人窒息的新聞洪流。其實你沒必要掌握所有資訊才能真正參與。那怕只是安裝 Codex 客戶端玩一玩,或者安裝 ChatGPT,把它連接到 Notion、Slack、GitHub 等內部資料來源,看看它能做什麼、不能做什麼,都已經是在參與。美國更像是一個律師主導的社會酷愛蘋果產品主持人:閃電問答環節——你最常推薦的兩三本書是什麼?Sherwin Wu:我推薦一本小說和兩本非虛構。小說是《There Is No Antimemetics Division》,作者是 QNTM。我是在 X 上看到有人分享的。這是一部帶有科幻色彩的作品,我兩天就讀完了。文筆極佳,非常有創意,講的是一個政府機構對抗“會讓人遺忘自身存在之物”的故事。設定新鮮、構思聰明,而且無意中還挺幽默——雖然基調接近科幻恐怖,但讀著讀著會讓人發笑。非虛構方面,我最近一年讀了不少關於中美關係的書。有兩本讓我印象深刻。第一本是丹·王的《Breakneck》,他用“律師型社會”和“工程師型社會”來對比美國與中國,分析各自的優劣。我讀完後也在想,美國確實像是一個由律師主導的社會。第二本是帕特里克·麥吉寫的關於 Apple 與中國關係的書,非常有意思。我是個不折不扣的蘋果迷,如果你現在看到我的桌面,會發現幾乎全是蘋果產品。那本書讓我對蘋果與中國之間的複雜互動有了更深入的理解。第二點是,這本書包含了大量關於 Apple 公司的內部資訊,我覺得非常吸引人。讀起來節奏很快,也非常應景,是一本很“及時”的書。主持人:那本《There Is No Antimemetics Division》聽起來太棒了,我現在就下單。Sherwin Wu:對對對,我記得也就兩百來頁,我真的兩天就讀完了,實在太精彩。一款智能家居硬體:Ubiquiti主持人:那你最近發現並特別喜歡的一款產品是什麼?Sherwin Wu:最近我重新搭建了家裡的 Wi-Fi 和家庭網路系統,徹底換成了 Ubiquiti 的路由器和安防攝影機。之前從沒接觸過這個品牌,我以前的配置都很簡單。這次深入使用後,真的覺得它做得非常好。如果要打個比方,它就像家庭網路領域的蘋果。硬體設計很漂亮,但真正厲害的是軟體——他們的移動端管理應用做得非常出色,可以統一管理家庭網路。如果你家裡布好了乙太網路線路,用它效果會非常好。我尤其推薦他們的安防攝影機系統,接入 Ubiquiti 生態後,可以通過手機、Apple TV、iPad 即時查看監控畫面,體驗非常流暢。價格不算便宜,但也沒貴到離譜,整體體驗真的很棒。永遠不要自憐主持人:好建議。你有沒有一句人生信條,經常在工作或生活中提醒自己?Sherwin Wu:我經常對自己說的一句話是——永遠不要自憐。無論是在工作還是生活中,總會發生各種事情。提醒自己不要沉溺於自憐,而是意識到自己始終擁有行動能力,能夠把自己拉起來,這對我很重要。我也經常對別人這麼說。主持人:太好了。再次感謝你。Sherwin Wu:謝謝你,Lenny。謝謝大家。 (51CTO技術堆疊)